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摘 要 : 玻 花 是 梨 生 产 中 的 重要 农艺 措施 ， 机 械 化 智能 琉 花 是 当今 高 速 发 展 的 朴 花 方式 ， 花 洒 与 花苞 的 分 


类 与 检测 是 保证 玖 花 机 器 正 常 工作 的 基本 要 求 。 本 研究 针对 日 前 梨园 
分 类 问题 ， 提 出 了 一 种 基于 改进 YOLOv5s 的 水 平 棚 架 梨园 花序 识别 算法 Ghost-YOLOv5s-BiFPN。 通 过 对 田 


间 采 集 的 梨 树 花苞 与 花 林 图 像 进行 标注 与 数据 扩充 
BiFPN 运用 加 权 双 向 特征 金字 塔 网 络 (Bi-directional 


网 络 (Path Aggregation Network, PAN) 结构 ， 对 网 络 提取 的 不 同 尺 寸 目 标 特征 进行 有 效 的 融合 。 同 时 运 


化 生产 中 出 现 的 梨 树 花 序 检测 与 


后 送 入 算法 进行 训练 得 到 检测 模型 。Ghost-YOLOv5s- 
Feature Pyramid Network, BiFPN) 替换 原始 的 路 径 聚 合 


a 


Ghost 模块 替换 传统 卷 积 ， 在 不 降低 准确 度 的 同时 减少 模型 参数 量 和 提升 设备 运行 效率 。 田 间 试 验 结果 表明 ， 
改进 的 Ghost-YOLOv5s-BiFPN 算 法 对 梨 树 花序 中 花苞 与 花 打 的 检测 精度 分 别 为 93.2% 和 89.4% ， 两 种 目标 平 


均 精度 为 91.3%， 检测 单 张 图 像 时 间 为 29 ms， 模 型 大 小 为 7.62 M。 相 比 于 原始 YOLOv5s 算 法 ,检测 精度 与 
召回 度 分 别提 升 了 4.2% 和 2.7%， 检 测 时 间 和 模型 参数 量 分 别 降低 了 9 ms 和 46.6%。 本 研究 提出 的 算法 可 对 


梨 树 花 区 与 花 打 进行 精确 的 识别 和 分 类 ， 为 后 续 梨 园 
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BRIN IT HEE I PRR, GAEL AR 
能 够 节约 树 体 养分 和 提升 果实 品质 ， 是 梨园 生产 
管理 中 十 分 重要 的 农艺 环节 。 目 前 在 梨 树 玻 花 方 
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面 主要 采用 人 工 方式 ， 既 耗 工 费时 又 浪费 树 体 养 
分 。 虽 有 下 花 机 上 其 问世 ,但 其 属于 随机 击 打 的 方 
式 ， 作 业 不 精准 ， 因 此 在 果园 使 用 智能 化 玻 花 技 
术 显 得 日 趋 重 要 ， 而 智能 化 玻 花 的 首要 任务 是 对 
花序 进行 检测 识别 。 
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近年 来 各 类 检测 算法 在 农业 采摘 、 监 测 等 方 
向 得 到 了 广泛 运用 一 。 同 时 ， 农 业 中 对 于 各 类 
水 果 识 别 方面 的 相关 研究 也 取得 了 许多 进展 。 杜 
文 圣 等 ”采用 一 种 融合 路 径 增 强 的 改进 Mask R- 
CNN (Region- Convolutional Neural Network) 算 
法 ， 针 对 和 葡萄 花 穗 与 果 梗 进行 识别 并 通过 集合 逻 
辑 算法 定位 玲 花 夹 持 点 ， 夹 持 准 确 度 可 达 
83.3%。 陈 新 等 “利用 改进 单 激 发 多 框 探测 器 
(Single Shot MultiBox Detector, SSD) 算法 并 引 
A MobileNetV3 轻 量化 模块 ， 对 番 前 花 打 进行 识 
别 ， 识 别 准确 率 可 达 92.57%， 检 测速 度 达 到 了 
0.079 s/f， 极 大 地 提升 了 模型 检测 速度 。 龙 洁 花 
等 ”将 卷 积 块 注意 力 模块 (Convolutional Block 
Attention Module, CBAM) 注意 力 机 制 加 入 到 
了 YOLOv4 (You Only Look Once) 网 络 的 跨 阶 
段 局 部 残 差 模 块 中 ， 对 不 同 生 长 时 期 的 草 每 果实 
进行 了 识别 ， 模 型 对 草 侮 开花 期 、 果 实 膨大 期 、 
绿 果 期 和 成 熟 期 的 检测 平均 精度 分 别 为 92.38% 、 
82.45%, 68.01% 和 92.31%。Wu 等 通过 使 用 
通道 剪 枝 方 法 改进 YOLOv4 算 法 对 苹果 花 进行 检 
测 ， 对 训练 好 的 YOLOv4 模 型 ， 通 过 对 比 批量 归 
一 化 (Batch Normalization, BN) 层 的 y 系 数 得 
到 不 同 输入 层 对 网 络 的 贡献 度 ， 从 而 确定 网 络 修 
前 方式 并 微调 ， 其 修剪 后 的 苹果 花 检测 模型 的 参 
数 数量 减少 了 96.74%， 平 均 精度 为 97.31%。Far- 
jon 等 ”通过 Faster-RCNN 进行 迁移 学 习 并 由 专 
业 种 植 人 员 对 花 人 条 信息 进行 标注 以 实现 对 冠 层 苹 
果 花 不 同 开 花 程 度 的 判别 ， 模 型 平均 精度 可 达 
68%， 对 开花 程度 的 判别 结果 与 人 工 判别 结果 高 
度 一 致 ， 较 好 地 对 不 同 程度 开放 的 苹果 花 进行 了 
判别 分 类 。 

在 这 些 现 有 的 方法 中 ，R-CNN "" 类 方法 作 
为 一 种 二 阶段 (Two-stage) 目标 检测 算法 ， 识 
别 准 确 度 及 精度 较 高 ， 但 识别 效率 较 低 ， 且 运行 
所 需要 的 计算 资源 较 大 ， 无 法 应 用 在 计算 性 能 较 
低 的 嵌入 式 设备 中 。SSD " 算法 相 较 于 R-CNN 
算法 在 检测 速度 上 有 优势 ， 但 其 检测 精度 存在 一 
定局 限 。YOLO "作为 一 种 单 阶段 (One stage) 


检测 算法 ， 相 对 其 他 CNN 模 型 在 检测 速度 上 有 
很 大 提升 ， 同 时 兼顾 了 准确 度 ， 合 适 作为 实际 政 
花 场景 中 的 检测 方法 ， 但 在 实际 部 署 中 ， 计 算 效 
率 低 下 的 舱 入 式 设备 运行 原始 YOLO 模 型 仍 很 难 
达到 智能 化 琉 花 任务 所 需要 的 资源 处 理 效率 ， 且 
原始 YOLO 在 对 梨花 目标 进行 识别 时 容易 忽略 其 
中 较 小 尺寸 的 目标 。 常 规 环境 中 ， 梨 树 校 干 生 长 
不 规律 、 花 东 过 密 、 目 标 大 小 不 一 、 谈 挡 严 重 等 
问题 也 给 花 东 识别 准确 度 造 成 了 很 大 的 影响 。 

针对 上 述 问题 ， 在 真实 玻 花 作业 场景 下 ， 对 
YOLO 网 络 进一步 进行 轻 量 化 改进 使 其 能 在 能 入 
式 设 备 上 有 效 运行 非常 必要 。 本 研究 以 开花 期 的 
梨花 为 研究 对 象 ， 针 对 不 同 环 境 下 的 梨 树 花 革 与 
花苞 进行 检测 ， 通 过 使 用 加 权 双 向 特征 金字 塔 网 
络 ， 增 强 网 络 对 多 尺寸 特征 的 融合 能 力 。 通 过 引 
入 轻 量 化 模块 对 网 络 层 进行 精简 以 降低 模型 参 
数 ， 从 而 使 其 适用 于 藤 入 式 设备 。 


2 材料 和 方法 


2.1 数据 获取 


本 研究 中 梨 树 花序 数据 通过 索尼 DSC- 
RX100 单 反 数 码 相 机 进行 采集 ， 样 本 数据 采集 于 
南京 周边 地 区 ， 品 种 为 苏 深 一 号 ， 采 集 日 期 为 
2022 年 3 月 10 日 至 2022 年 3 月 30 日 ， 在 白天 阳 
光 充分 及 傍晚 阳光 不 足 时 分 批 次 进行 采集 ， 共 采 
集 到 原始 图 片 2163 张 ， 图片 以 5472X3648 的 像 
素 分 辨 率 保 存 为 *.jpg 格 式 文件 。 因 梨园 按 水 平 
棚 架 模式 (图 1) 进行 种 植 ， 数 据 采集 时 以 单 根 
枝条 为 单位 沿 果树 行 间 进行 采集 。 


i 4 
图 1 梨 树 水 平 棚 架 


Fig. 1 Horizontal scaffolding of pear tree 
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数据 集 分 为 1658 张 训练 集 和 5$05 张 验证 集 。 
为 避免 因数 据 集 不 足 而 产生 模型 过 拟 合 ， 本 研究 
通过 OpenCV 库 编写 处 理 程序 ， 对 原始 数据 采取 
改变 亮度 、 旋 转角 度 、 增 加 高 斯 噪声 、 调 整 锐 度 
等 变换 。 具 体 变 换 策 略为 亮度 上 降 为 原 图 60% 和 
45% 两 种 梯度 ， 旋 转 图 片 0 一 180" 、 增 加 高 斯 噪 
声 方差 0.01， 锐 度 降 低 0~20%。 扩 充 过 程 中 对 
每 张 图 片 均 通 过 这 几 种 变换 方式 进行 随机 抽取 变 


换 梯度 后 组 合 ， 同 时 确保 同一 张 图 片 不 产生 相同 
的 扩充 图 片 。 为 减少 人 工 重复 标注 时 间 ， 程 序 对 
原始 数据 中 已 经 标注 的 目标 位 置信 息 采 取 与 图 像 
相同 的 位 置 变 换 策略 以 直接 生成 标注 完成 的 扩充 
数据 。 数 据 扩充 示例 选取 了 两 张 随机 组 合 扩 充 策 
略 的 数据 ， 如 图 2。 对 于 已 经 标注 的 原始 图 片 采 
取 10 倍 的 数据 扩充 策略 ， 将 原始 数据 扩充 为 
21,630 张 标注 完成 的 数据 。 


Ry 


(b) 随 机 数据 扩充 (亮度 ) 


(c) 随 机 数据 扩充 (旋转 ) 


2 梨花 序 原始 数据 随机 扩充 示例 


Fig. 2 Examples of random expansion of pear flower sequence original data 


2.2 图 像 识别 算法 


2.2.1 YOLOv5 目标 检测 算法 

通过 将 图 像 分 为 有 限 数量 的 销 框 并 对 每 个 锚 
框 的 边缘 框 部 分 继续 进行 预测 ， 将 目标 检测 问题 
转化 为 概率 回归 问题 。 通 过 YOLO 可 以 直接 获得 
目标 的 类 别 和 估计 概率 ， 相 比 于 两 阶段 检测 网 络 
RCNN 大 大 提高 了 检测 速度 。 标 准 版 YOLO 每 秒 
可 以 实时 地 处 理 45 帧 图 像 "”， 而 轻 量 化 后 的 较 
小 版 本 YOLO 每 秒 可 以 处 理 155 帧 图 像 。 目 前 
YOLO 系列 天 二 经 过 了 不 断 地 改进 ，YOLOv5 
在 原 有 框架 的 基础 上 采用 了 CSPDarkNet53 主干 
网 络 ， 相 较 于 先前 版 本 DarkNet53, CSPDark- 
Net53 先 将 基础 层 的 特征 映射 划分 为 两 部 分 ， 然 
后 通过 跨 阶 段 层 次 结构 将 划分 部 分 合并 ， 在 减少 
了 计算 量 的 同时 保证 了 模型 识别 的 准确 率 。YO- 
LOv5 的 颈 部 (Neck) 网 络 采 用 了 特征 金字 塔 
(Feature Pyramid Networks, FPN) + 路 径 聚 合 网 
络 (Path Aggregation Network, PAN) 结构 , 
FPN 结 构 进行 和 月 顶 向 下 传达 强 语义 特征 ，PAN 结 
构 自 底 向 上 传达 强 定位 特征 ， 通 过 融合 两 种 结构 
以 实现 对 主干 网 络 不 同 层 特 征 的 双向 聚合 。 预 测 


头 部 分 通过 对 生成 的 不 同 尺 十 的 特征 图 利用 基于 
网 格 的 锚 框 进行 概率 回归 判断 从 而 进行 预测 。 
YOLOv5 的 特征 提取 网 络 主要 包含 特征 提取 模块 
CBS、CSP_X、 人 金字 塔 池 化 层 (Spatial Pyramid 
Pooling, SPP) 等 部 分 。CBS 模块 由 卷 积 层 
(Conv) + 批量 归 一 化 层 (BN) +SiLU 激活 函数 
层 组 成 ， 通 过 卷 积 提取 特征 ， 经 过 BN 层 进行 归 
一 化 处 理 以 加 快 网 络 学 习 速 度 后 由 激活 函数 对 特 
征 进 行 保 留 与 映射 并 去 除 宛 余 特征 。CSP X 由 
CBS 与 X 个 残 差 进行 级 联 构成 。SPP 空 间 金 字 塔 
池 化 层 对 经 过 CBS 模 块 后 的 特征 图 进行 转换 而 
形成 固定 大 小 的 特征 向 量 ， 使 网 络 对 不 同 尺 寸 的 
输入 图 片 提取 局 部 及 全 局 特征 进行 融合 。 各 模块 
与 整个 网 络 的 结构 图 如 图 所 示 3。 

为 了 在 巢 树 玖 花 前 检测 出 花苞 与 花 朱 ， 本 研 
究 选 定 YOLOv5 中 深度 和 特征 图 宽度 最 小 版 本 
的 YOLOv5s 模 型 并 对 其 网 络 进行 了 参数 微调 ， 
以 采集 的 数据 为 输入 数据 集 。 图 片 输入 像素 大 小 
设置 为 640X640。 学 习 率 、 批 量 大 小 和 迭代 次 数 
分 别 设 置 为 1% 、32 个 和 200 次 ， 类 数 为 2， 分 为 
花 休 与 花苞 ， 对 于 有 花瓣 展开 的 花苞 认定 其 为 
TER o 
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输入 骨干 网 络 


颈 部 网 络 


160*160%64 80*80x128 J0x40x256 20x20x512 


[Ce | 


! jire = E> ' 


图 3 YOLOv5s 网 络 结构 图 


Fig. 3 YOLOv5s network structure diagram 


对 通过 微调 后 的 YOLOv5s 模 型 进行 训练 得 
到 初始 模型 ， 前 期 测试 中 发 现 YOLOv5s 模 型 可 
以 对 目标 进行 有 效 识别 并 分 类 ,但 在 实际 部 署 过 
程 中 发 现 其 参数 量 较 大 ， 运 行 过 程 中 占用 了 大 量 
计算 资源 ， 无 法 在 轻便 地 髓 入 式 设备 上 有 效 运 
行 ， 同 时 对 小 目标 的 识别 效果 较 差 ， 因 此 需 针 对 
小 尺寸 目标 调整 网 络 特征 融合 方法 并 进行 轻 量 化 


改造 减少 模型 参数 以 便于 户外 部 署 。 
2.2.2 ”融合 Ghost 的 YOLOv5 算 法 

为 进一步 减少 模型 参数 量 ， 在 YOLO 算 法 中 
引入 Ghost 网 络 5。Ghost 网 络 是 一 种 基于 Ghost 
卷 积 模块 的 网 络 结构 。 传 统 的 CNN 结构 通常 通 


Common Conv 


Intrinsic feature ma 


过 大 量 浮 点 运算 以 达到 理想 精度 。MoblieNet ‘7’ 
及 ShuffleNet “2 等 轻 量 化 模型 虽然 降低 了 浮 点 
计算 量 , 但 经 过 卷 积 产生 的 宛 余 特 征 图 却 没有 得 
到 有 效 人 处理。Ghost 卷 积 模块 先 通过 1X1 普 通 卷 
积 操作 生成 一 些 基 础 的 原始 特征 图 ， 然 后 将 这 些 
特征 图 逐一 进行 pg,、gp,、…… 、 由 线性 变换 ， 得 
到 另 一 部 分 宛 余 特 征 图 后 将 这 一 部 分 特征 图 与 原 
始 特征 图 进行 融合 ， 增 加 通道 数 。 这 种 通过 线性 
运算 得 到 元 余 特 征 图 的 方式 相 比 普通 卷 积 ， 可 用 
更 少 的 代价 来 生成 那些 宛 余 的 特征 图 。 通 过 这 种 
方式 减 小 模型 的 总 参数 量 以 简化 模型 ，Ghost 卷 
积 模块 原理 图 如 图 4 所 示 。 


Ghost feature map 


图 4 Ghost 卷 积 模块 原理 图 


Fig.4 Schematic diagram of Ghost convolution module 
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利用 Ghost 卷 积 构成 Ghost 瓶颈 结构 如 图 5 征 图 通道 数 以 与 网 络 中 的 直径 结构 匹配 ， 接 着 使 
Pras, Bl DWConv an iil FR. Ghost iii 用 直径 结构 连接 这 两 个 Ghost 卷 积 模块 的 输入 和 
颈 模 块 通过 卷 积 步 长 来 区 分 模块 结构 ， 主 要 分 为 输出 。 卷 积 步 长 Stride=2 时 在 主干 部 分 中 以 一 个 
主干 部 分 与 残 差 边 部 分 。 卷 积 步 长 Stride=1 时 ， ” 步 长 为 2 的 深度 可 分 离 卷 积 配合 两 个 Ghost 卷 积 
由 两 个 堆 释 的 Ghost 卷 积 模块 组 成 。 第 一 个 ”模块 进行 宽 高 压缩 并 在 残 差 边 部 分 中 添加 一 个 步 
Ghost 卷 积 模块 主要 用 于 拓展 层 以 增加 输入 特征 ”长 为 2 的 深度 可 分 离 卷 积 与 一 个 1X1 普 通 卷 积 。 
图 的 通道 数 。 第 二 个 Ghost 卷 积 模块 用 于 减少 特 


BN+ReLU BN 


wk =] Jk GhostCony > chostc = "Se 


BN+ReLU BN BN 


Ghost ÉE 


Ghost hi 225 Fy 
图 5 Ghost 瓶颈 结构 模块 

Fig. 5 Ghost bottleneck structure module 
Ghost fi W 2 #4) AY AS Jit a: LA Ghost BOR ” 卷 积 采用 分 布 提取 特征 图 的 方式 ,假设 每 个 基础 
普通 卷 积 以 达到 减 小 计算 参数 的 目的 。 从 计算 。 ”特征 对 应 s 个 宛 余 特征 ， 则 Ghost 卷 积 只 需 输 出 
量 上 看 ， 对 于 传统 卷 积 假设 其 输入 尺寸 为 Cx ”ms 个 基础 特征 即 可 完成 去 元 余 ， 然 后 通过 线性 
及 x 开卷 积 核 为 Cx KK x K x N， 其 中 C 表 示 卷 。 ”变换 对 这 些 基础 特征 进行 扩充 以 生成 对 应 的 相似 
只 通道 数 ，K 为 卷 积 核 大 小 ，N 为 卷 积 核 数 量 ， ”特征 。 设 每 个 线性 操作 的 卷 积 核 大 小 为 4Xd， 则 
其 输出 的 特征 图 尺寸 为 五 'x Wx N， 则 可 得 此 ”一 般 卷 积 和 Ghost 卷 积 的 计算 速度 比 Rate, 可 以 表 

48 FA REN Hx W'X NX CXKXK. Ghost ” 示 为 公式 (1)。 

nx H'XW'XCXKXK CxKxK SX 


ca ame n ~ s-1 SEGEL S a) 
—xH'x W'XCXKXK+(s-1)X—xXH'xW'xdxd ~—xCxKxKt+ 
S S AY 


xdxd 


由 公式 〈1) 的 两 种 卷 积 方式 计算 速度 比 化 利于 训练 ，Swish 激活 函数 图 像 如 图 6 (a). E 
简 结 果 可 知 ， 传 统 卷 积 提 取 特 征 过 程 的 计算 量 约 然 Swish 激 活 函 数 的 效果 显著 ,但 其 函数 存在 指 
等 于 Ghost 卷 积 的 s 倍 ， 因 此 可 知 使 用 Ghost 卷 积 。 数 运 算 ， 对 于 卷 积 层 较 多 的 模型 会 产生 极 大 的 运 
可 以 确实 的 减 小 计算 量 并 降低 参数 量 。 算 量 从 而 影响 模型 整体 的 效率 。 对 此 选择 采用 轻 

本 研究 前 期 训练 过 程 中 观察 到 ， 随 着 训练 轮 ”量化 模型 MobileNetV3 中 的 Hard-Swish 激活 函数 
次 提高 ， 模 型 产生 了 大 量 卷 积 层 的 同时 出 现 了 梯 PEFR Swish 函数 ， 函 数 图 像 如 图 6 (b)。 从 函数 
度 消 失 的 情况 。 原 因 在 于 Ghost 模块 的 ReLU 激 ”图像 上 观察 ，HardSwish 以 一 个 近似 函数 来 蔡 代 
活 函 数 在 负 半 轴 为 0， 因 此 产生 了 负 半 轴 无 法 激 ”Swish 函数 ， 保 留 了 其 无 上 界 有 下 界 的 特点 ， 同 
活 的 情况 而 使 神经 元 无 法 学 习 到 有 效 特 征 ， 针 对 ”时 替代 了 其 指数 运算 的 部 分 ， 可 以 通过 更 低 的 计 
这 种 情况 ， 从 激活 函数 上 对 Ghost 模块 进行 了 算 成 本 达到 类 似 Swish 函数 的 激活 效果 ， 从 计算 
改进 。 资源 角度 出 发 更 适用 于 舰 入 式 设备 部 署 。 相 比 于 

寺 征 映射 中 较为 理想 的 激活 函数 为 YOLOv5 ”ReLU 函数 在 负 半 轴 为 0 的 情况 ， 其 在 xe (-3, 
算法 的 CBS 模 块 中 使 用 的 Swish 激 活 函 数 ， 其 优 0) 时 函数 值 非 0， 可 以 将 负 梯 度 信息 很 好 地 激 
势 为 无 上 界 有 下 界 ， 不 会 产生 梯度 饱和 的 现象 ，“ 活 ， 适 用 于 本 研究 的 任务 环境 。 将 Ghost 模块 在 
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Pytorch 中 封装 后 引入 YOLO 网 络 。 在 其 主干 网 
络 中 ， 以 Ghost 卷 积 替换 传统 卷 积 〈 图 3 中 CSP 


——Swish 


(a)Swish 激 活 函数 图 像 


及 CBS 结 构 )， 原 网 络 贷 部 网 络 层 和 预测 层 保持 
原 结构 不 变 。 


HardSwish 


(b)HardSwish 激 活 函 数 图 像 


图 6 激活 函数 图 像 


Fig.6 Images of activation function 


2.2.3 ”加 权 双 向 特征 金字 塔 网 络 

在 网 络 训练 过 程 中 ， 因 为 不 同 目 标的 尺寸 大 
小 不 一 ， 导 致 在 卷 积 过 程 中 大 目标 的 特征 随 着 卷 
积 的 深入 可 以 保留 ， 而 小 目标 的 特征 可 能 会 消 
失 ， 因 此 需要 将 相同 目标 的 不 同 深度 的 特征 层 进 
行 融 合 。YOLOv5 对 于 不 同 尺度 的 特征 使 用 路 径 
聚合 网 络 (Path Aggregation Network) |” 进行 融 
合 ， 其 结构 如 图 7 (a) 所 示 ， 路 径 聚 合 网 络 通过 
将 大 小 不 同 尺 度 的 特征 进行 双向 传播 ， 将 深层 特 
征 层 携带 的 更 强 的 语义 信息 传递 到 浅 层 特征 层 ， 
同时 将 浅 层 特征 层 携带 的 更 强 的 定位 信息 传递 到 
深层 特征 层 从 而 实现 不 同 尺 寸 特征 层 的 路 径 
融合 。 

路 径 聚 合 网 络 虽 然 能 将 不 同 特征 层 进 行 有 效 
融合 ， 但 其 本 质 上 仍 是 将 不 同 特征 进行 简单 相 
加 。 然 而 由 于 在 不 同 的 图 像 中 被 检测 目标 大 小 不 
一 ， 因 此 训练 中 会 产生 不 同 分辨 率 斥 寸 的 特征 ， 
在 路 径 聚 合 网 络 中 仍 将 他 们 简单 相 加 ， 这 将 导致 
同一 类 型 的 不 同 尺 寸 特征 对 融合 后 输出 的 特征 产 
生 不 平等 的 权重 。 大 尺寸 的 特征 被 更 多 的 融入 网 
络 而 小 尺寸 特征 贡献 较 小 。 本 研究 花序 识别 中 ， 
目标 尺寸 不 一 ， 这 将 严重 影响 最 终 训练 模型 的 效 
果 。 为 解决 这 一 问题 ， 参 考 加 权 双 向 特征 金字 塔 
网 络 (Bi-directional Feature Pyramid Network， 


BiFPN) ” 对 检测 网 络 结构 进行 改进 ， 其 结构 如 
图 7 (b) 所 示 。 


(a)PANet 结 构图 (b)BiFPN 结构 图 
图 7 PANet 及 BiFPN 结构 图 


Fig. 7 Structure diagram of PANet and BiFPN 


相 比 于 路 径 聚 合 网 络 ， 加 权 双 向 特征 金字 塔 
网 络 参 考 注 意 力 机 制 (Attention) 针对 融合 的 不 
同 尺 寸 特征 增加 了 权重 ， 动 态 可 学 习 的 调节 每 个 
尺度 的 贡献 度 ， 使 网 络 在 获得 不 同 尺 寸 的 特征 时 
更 好 的 将 其 融合 。 同 时 ， 其 增加 了 残 差 连接 以 增 
强 特征 的 表达 能 力 。 对 于 单 输入 边 和 输出 边 的 结 
点 ， 因 其 没有 参与 特征 融合 故 可 近似 省 略 其 特征 
言 息 以 减 小 计算 量 ， 本 研究 网 络 中 以 BiFPN ENR 
PANet 以 提高 模型 融合 特征 能 力 。 为 使 BiFPN 更 
好 地 发 挥 效 果 ， 在 YOLOv5 的 征 融 合 部 分 增加 
160X160 的 特征 层 ， 并 将 80X 80 的 特征 层 2 倍 上 
采样 与 新 增加 的 160X160 的 特征 层 进行 融合 ， 
以 供 160X160 的 检测 层 检 测 更 小 目标 。 同 时 ， 
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在 预测 头 部 分 增加 一 层 160X160 尺 寸 的 检测 层 如 图 8 所 示 。 
以 检测 小 尺寸 目标 。 替 换 后 的 颈 部 网 络 及 预测 头 
颈 部 网 络 


图 8 修改 后 的 YOLOvV5 颈 部 网 络 及 预测 头 结 构 


Fig. 8 Modified YOLOvS neck network and prediction head structure 


3 结果 与 分 析 


3.1 模型 性 能 评估 


从 准确 度 和 运算 效率 两 个 方面 对 模型 进行 评 
价 。 对 于 梨 树 花 条 识别 工作 ， 模 型 运算 效率 直接 
影响 后 续 的 玻 花 工 作 ， 相 比 于 识别 精度 更 为 重 
要 ， 因 此 本 研究 在 评价 模型 性 能 时 以 运算 效率 为 
第 一 指标 。 
3.1.1 模型 准确 度 评价 指标 

准确 度 评 价 主要 依靠 准确 度 (Precision, 
P), A [el HE (Recall，R)、 均 值 平均 精度 
(Mean Average Precision, mAP) 生得 分 四 项 
指标 进行 评价 ， 参 数值 越 高 ， 效 果 越 好 。 这 四 项 
标的 计算 如 公式 (2) ~ (5). 


= TP 0, 
P= -p4 Fp * 100% (2) 
Z TP 0, 
R= Tp 4 pN ~ 100% (3) 
_ DAP 
MAPE N (Class) Á 


PXR 
P+R (5) 


F,=2*x 
其 中 ， 真 阳性 (True Positive, TP) 为 模型 


判定 的 正 样本 ,事实 上 也 是 正 样本 的 数量 , 个; 
假 阳性 (False Positive, FP) 为 模型 判定 的 正 样 
本 ,但 事实 上 是 负 样 本 数量 , 个 ; 假 阴 性 
(False Negative, FN) 为 判定 的 负 样 本 ,但 事实 
上 是 正 样 本 数量 ,个 ; 平均 精度 (Average Preci- 
sion, AP) 为 平均 精度 ， 由 同一 样本 的 精度 求 平 
均 所 得 。 
3.1.2 ”模型 效率 评价 指标 

效率 评价 主要 由 参数 量 (Parameters)、 浮 点 
运算 数 (GFLOPs)、 平 均 检 测 时 间 三 个 指标 评 
价 。 其 中 参数 量 主要 由 网 络 结构 决定 ， 每 个 参数 
在 Pytorch 框架 中 一 般 为 32 位 存储 ， 因 此 也 可 以 
通过 模型 的 实际 大 小 作为 判断 其 参数 量 的 方式 。 
浮 点 运算 数 为 模型 需要 进行 的 计算 数量 ， 平 均 检 
测 时 间 取 测试 集中 10 张 图 片 的 检测 时 间 平 均值 
得 到 。 
3.2 试验 结果 
3.2.1 加 权 双 向 特征 金字 塔 网 络 及 Ghost 模块 

效果 验证 


为 验证 BiFPN 模块 的 效果 ， 以 赫 换 了 BiFPN 
结构 的 网 络 模型 进行 训练 。 为 更 有 效 地 体现 BiF- 
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PN 结构 对 网 络 的 贡献 ， 通 过 Grad-CAM 对 网 络 
进行 了 可 视 化 的 效果 对 比 。Grad-CAM 可 以 通过 
热力 图 的 方式 表示 网 络 对 输入 图 片 信息 的 关注 程 
度 。 将 两 种 网 络 输入 Grad-CAM 测 试 后 ， 其 对 目 
标识 别 的 热力 图 如 图 9。 可 以 观察 到 BiFPN 结构 


相 比 原生 YOLOv5 的 PANet 结 构 ， 对 检测 目标 位 
置 区 域 的 热力 较 高 且 对 于 非 目 标 区 域 的 无 关 环境 
言 息 热度 较 低 。 由 此 可 以 判断 BiFPN 结构 在 本 数 
据 集 中 可 以 更 好 地 提取 花 朱 整体 特征 信息 ， 同 时 
降低 了 对 环境 中 无 关 信息 的 关注 ， 效 果 可 靠 。 


(a)PANet 结 构 热 力图 
图 9 PANet 和 BiFPN 识 别 梨花 热力 图 效果 对 比 


(b)BiFPN 结构 热力 图 


Fig. 9 Comparison of thermal diagram effects between PANet and BiFPN 


为 验证 Ghost 模块 在 本 研究 中 的 有 效 性 ， 以 
一 张 枝 干 梨花 花序 图 片 为 例 ,在 识别 过 程 中 对 
YOLO 网 络 层 的 第 一 个 CBS 模 块 后 的 特征 图 进行 
可 视 化 ， 选 取 了 部 分 生成 的 特征 图 如 图 10。 由 图 
10 可 知 研究 对 象 在 卷 积 过 程 中 同样 会 产生 相似 的 
宛 余 特征 图 ， 因 此 使 用 Ghost 模块 对 宛 余 特 征 进 
行 线性 处 理 是 有 必要 的 。 
3.2.2 ”模型 性 能 消融 实验 

为 验证 各 模块 的 作用 与 相互 存在 的 影响 ， 针 
对 BiFPN 与 Ghost 模块 设计 了 消融 试验 。 花 序 检 
测 网 络 训练 在 Pytorch 深度 学 习 框 架 中 进行 。 硬 
件 平台 使 用 台式 服务 器 搭载 Intel®@CoreTM ES 
V3 CPU, 32 GB 运行 内 存 ，12 GB GeForce GTX 
3090 显 卡 。 软 件 环 境 为 Ubuntu20.04 系统 ， 整 个 


模型 在 Anaconda3 虚拟 环境 下 运行 ， 使 用 Cuda 
11.4 加 速 显 卡 硬件 。 图 片 输 入 像素 大 小 为 640X 
640， 训 练 epoch 设 置 为 1000 轮 ， 学 习 率 初始 为 
0.001， 使 用 超 参 数 进化 ， 通 过 每 一 轮 的 损失 率 
参数 动态 调整 学 习 率 以 加 快 网 络 训练 速度 。 

为 统一 标准 同时 尽 可 能 简化 模型 。 试 验 均 使 
用 相同 卷 积 通道 数 与 CSP 模 块 层 数 的 YOLOv5s 
版 本 模型 为 原始 模型 。 表 1 中 YOLOv5s 代表 使 
用 原始 YOLOv5s， 其 使 用 PANet 进 行 特征 融合 ， 
YOLOv5s-BiFPN 表示 使 用 了 原始 模型 与 BiFPN 
特征 融合 结构 的 模型 ，GhostrYOLOvSs 表 示 使 用 
Ghost 模块 蔡 换 主干 部 分 卷 积 后 的 YOLOVSs 模 
HI, Ghost-YOLOvS5s-BiFPN 表示 同 时 使 用 了 BiF- 
PN 结构 和 Ghost 模块 替换 后 的 YOLOv5Ss 模 型 。 


表 1 改进 YOLOv5s 与 原始 YOLOv5s 性 能 参数 对 比 


Tablel Comparison of performance parameters between improved YOLOvSs and original YOLOvS5s 


算法 mAP/% ”召回 率 /% F43% 参数 量 GFLOPs ”平均 检测 时 间 /ms ”模型 大 小 /M 
YOLOv5s 87.1 87.2 88.0 7,015,519 15.8 38 13.70 
YOLOv5s-BiFPN 92.2 91.4 91.8 7,101,064 16.0 41 14.10 
Ghost-YOLOv5s 86.2 86.5 86.5 3,678,423 8.1 27 7.49 
Ghost-YOLOv5s-BiFPN 91.3 89.9 91.2 3,743,968 8.3 29 7.62 
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图 10 梨花 特征 可 视 化 部 分 特征 图 


Fig. 10 Partial feature maps of pear flower feature visualization 


由 表 1 可 知 ，YOLOv5s-BiFPN 模型 与 使 用 
PANet 结 构 的 原始 模型 相 比 ，mAP 与 召回 率 分 别 
提升 了 5.1% 和 4.2%， 参 数量 增加 了 1.2%， 平均 
检测 时 间 增 加 了 3 ms; Ghost-YOLOv5s 对 比 YO- 
LOv5s, mAP 降低 了 0.9% , A EX MEK 
0.7% ， 参 数量 、 模 型 大 小 及 浮 点 运算 数量 分 别 
降低 了 47.6% 、45.3% 和 48.7% ,平均 检测 时 间 
缩短 了 11 ms. Ghost-YOLOv5s-BiFPN 模型 相 比 
于 原始 网 络 ，mAP 和 召回 率 分 别提 高 了 4.2% 和 
2.7% ， 参 数量 、 模 型 大 小 及 浮 点 运算 数量 分 别 
降低 了 46.6% 、44.4% 和 47.5%， 平均 检测 时 间 
缩短 了 9 ms。 可 知 在 YOLOv5s 中 使 用 BiFPN 结 
构 可 以 有 效 提升 模型 的 检测 性 能 。 使 用 BiFPN 的 
模型 参数 量 相 比 于 原始 模型 虽然 略 有 提升 但 其 检 
测 时 间 几 乎 相同 且 检 测 精 度 的 提升 收益 较 大 。 原 
因 在 于 BiFPN 混 合 了 多 尺 才 的 特征 图 ， 增 加 了 针 
对 小 目标 的 特征 图 尺寸 并 进行 加 权 融 合 ， 同 时 在 
训练 中 BiFPN 对 目标 的 权重 数值 是 以 一 种 动态 可 
学 习 的 方式 进行 调整 ， 因 此 随 着 训练 的 深入 其 得 
到 了 比 PANet 结 构 更 多 的 特征 。 与 使 用 传统 卷 积 


的 原始 模型 相 比 ， 使 用 Ghost 卷 积 替 换 原 始 卷 积 
十 分 显著 地 降低 了 模型 的 总 参数 量 且 平均 精度 并 
未 显著 下 降 ， 由 此 可 得 Ghost 卷 积 操作 相 比 传统 
卷 积 方式 并 未 大 量 减少 有 效 特征 ， 损 失 的 参数 量 
大 部 分 为 元 余 的 特征 图 信息 。 从 试验 结果 上 和 看 
Ghost-YOLOv5s-BiFPN 模 型 在 降低 参数 的 同时 提 
高 了 对 小 目标 检测 的 精度 ， 更 适合 实际 部 署 环 
境 ， 表 明 融 合 BiFPN 和 Ghost 模块 的 改进 是 有 
效 的 。 

3.2.3 ” 梨 树 花序 检测 结果 

为 验证 所 提出 的 基于 融合 Ghost 与 BiFPN 的 
YOLOv5 梨 树 花 序 检测 方法 的 性 能 ， 使 用 118 张 
梨 树 花苞 花 条 图 像 作为 测试 集 对 该 方法 进行 测 
试 。 测 试 集 中 共有 花茶 633 杀 和 花苞 304 个 ， 检 
测 的 结果 示例 如 图 11 所 示 。 

从 结果 上 来 看 ， 该 模型 不 仅 适用 于 光照 强 的 
青天 采集 的 图 像 (图 11 (b) )， 也 适用 于 光照 均 
匀 的 阴 天 采集 的 图 像 (图 11 (d) )。 此 外 ， 对 于 在 
阳光 直射 条 件 (图 11 (a) ) 和 背光 (图 11 (c) ) 
条 件 下 也 可 完成 检测 任务 。 在 不 同 光 照 环 境 下 ， 
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(a) 晴 天 且 逆 光 条 件 下 的 检测 结果 


区 


(c) 晴 天 背光 条 件 下 的 检测 结果 


(d) 上 晴天 逆光 条 件 下 的 检测 结果 
注 :1 ,2.3 分别 为 强 光照 、 阴 影 \ 半 阴影 半 强 光 检 测 结 果 ;4 表 示 检 测 失 败 结果 ;5 表示 目标 被 遮挡 检测 结果 ;6 表示 置信 和 度 误 
差 导 致 的 检测 结果 ;7 表示 蜡 色 花 蔚 检测 结果 


图 11 巢 树 花序 识别 结果 示例 


Fig. 11 Examples of pear inflorescence recognition results 


该 方法 共 检 测 到 测试 集中 目标 花 杂 572 打 、 花 区 
290 个 ， 其 中 真实 花 朱 538 打 ,花苞 271 个 ,， 花 
打 、 花 区 的 召回 率 和 准确 率 分 别 为 85.3%、 
89.4% 和 94.6% 和 93.2%。 从 试验 数据 结果 及 实 
际 测试 结果 来 看 ， 模 型 对 于 两 种 类 型 目标 的 识别 
效果 较 好 。 结 果 中 同时 发 现 同 一 模型 中 ， 花 区 的 
召回 率 往往 高 于 花 朱 ， 观 察 识别 示例 后 推断 其 原 
因 在 于 花 人 条 的 形态 各 异 ， 特 征 更 为 复杂 ， 而 花苞 


对 花 条 与 花苞 进行 分 类 识别 ， 对 于 对 速度 要 求 大 
于 精度 要 求 的 玖 花 任务 效果 较为 可 靠 。 
4 结论 

本 人 研究 提出 了 一 种 融合 BiFPN 和 Ghost 模 块 
的 改进 YOLOv5s 模 型 ， 对 梨 树 水 平 棚 架 规律 枝 


于 下 的 花序 进行 识别 ， 将 BiFPN 加 入 到 YO- 
LOvSs 主干 网 络 后 ， 通 过 可 学 习 的 加 权 方 式 对 大 


的 特征 较为 统一 。 因 此 在 模型 中 拥有 更 高 的 召回 
率 。 从 图 11 例 5 中 可 以 观察 到 ， 在 遮挡 条 件 下 也 
模型 可 较为 准确 检测 出 目标 。 从 图 11 例 7 观 察 
到 ， 异 色 花 蕊 的 花 条 也 被 成 功 检 测 ， 进 一 步 推断 
模型 具有 一 定 的 泛 化 能 力 ， 对 出 现 一 定 变化 的 目 
标 也 可 成 功 识别 。 从 图 11 例 4 和 6 观察 发 现 模 型 
同时 也 存在 部 分 目标 漏 检 和 多 次 检测 的 情况 ， 此 
类 情况 多 为 两 个 目标 具有 重 县 部 分 导致 模型 对 其 
交 并 比 (Intersection over Union，IoU) 判断 后 会 
弃 了 部 分 目标 。 后 续 需 要 针对 这 类 重 闪 目标 增加 
对 应 数据 集 以 对 模型 进行 改进 。 从 图 11 的 整体 
识别 效果 判断 ， 模 型 可 以 在 相对 复杂 环境 下 成 功 


尺寸 与 小 尺寸 的 目标 特征 进行 融合 同时 增加 了 
160X160 的 特征 融合 与 检测 层 以 更 好 地 识别 小 尺 
才 目 标 ， 提 高 了 整体 检测 精度 。 通 过 在 主干 网 络 
中 以 Ghost 卷 积 蔡 换 传统 卷 积 方式 ， 以 更 低 的 算 
力 成 本 得 到 了 宛 余 的 特征 图 ， 极 大 地 降低 了 参数 
量 , 简化 了 模型 使 其 更 适用 于 向 入 式 设备 。 

(1) 在 本 实验 梨 树 花序 测试 集 上 的 试验 结 
表明 ， 改 进 后 的 YOLOv5s-BiFPN-Ghost 模 型 平 
均 检 测 精度 达到 了 91.3% ， 召 回 率 达 到 了 
89.9% ， 与 原 YOLOv5s 网 络 相 比 ， 参 数量 降低 
了 46.6% ,平均 检测 时 间 仪 需 29 ms。 虽 然 增 加 
Ghost 模 块 相 比 于 原始 网 络 损 失 了 一 定 准确 度 ， 
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但 相对 于 模型 轻 量化 的 程度 ， 检 测 精度 的 较 小 变 
化 是 可 以 接受 的 。 后 续 可 对 比 通道 剪 枝 的 模型 量 
化 方法 寻找 对 于 此 任务 的 最 佳 模 型 轻 量 化 策略 。 


(2) 在 实际 测试 中 虽然 可 以 较 好 地 检测 出 独 


立 的 目标 ,但 对 于 两 个 目标 相互 重 僵 的 情况 模型 
展现 的 检测 效果 并 不 理想 。 后 续 需 要 更 改 标注 策 
略 并 增加 对 应 情况 数据 集 以 迁移 学 习 ， 同 时 调整 
寻找 最 佳 IoU 参数 以 改进 网 络 。 和 针对 花 朱 类 目标 
的 低 召 回 率 情况 ， 后 续 考 虑 添加 CBAM 注意 力 
机 制 以 提高 模型 对 这 类 目标 的 召回 率 。 
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Detection of Pear Inflorescence Based on Improved 
Ghost-YOLOv5s-BiFPN Algorithm 
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(1. Institute of Agricultural Facilities and Equipment, Jiangsu Academy of Agricultural Sciences / Key Laboratory 
of Modern Horticultural Equipment, Ministry of Agriculture and Rural Affairs, Nanjing 210014, China; 2. Institute 
of Agricultural Engineering Jiangsu University, Zhenjiang 210200, China) 


Abstract: Mechanized and intelligent flower thinning is a high-speed flower thinning method nowadays. The classification and 
detection of flowers and flower buds are the basic requirements to ensure the normal operation of the flower thinning machine. 
Aiming at the problems of pear inflorescence detection and classification in the current intelligent production of pear orchards, a 
Y-shaped shed pear orchard inflorescence recognition algorithm Ghost-YOLOvSs-BiFPN based on improved YOLOvSs was 
proposed in this research. The detection model was obtained by labeling and expanding the pear tree bud and flower images col- 
lected in the field and sending them to the algorithm for training. The Ghost-YOLOvSs-BiFPN algorithm used the weighted bi- 
directional feature pyramid network to replace the original path aggregation network structure, and effectively fuse the features 
of different sizes. At the same time, ghost module was used to replace the traditional convolution, so as to reduce the amount of 
model parameters and improve the operation efficiency of the equipment without reducing the accuracy. The field experiment 
results showed that the detection accuracy of the Ghost-YOLOvS5s-BiFPN algorithm for the bud and flower in the pear inflores- 
cence were 93.21% and 89.43%, respectively, with an average accuracy of 91.32%, and the detection time of a single image was 
29 ms. Compared with the original YOLOv5s algorithm, the detection accuracy was improved by 4.18%, and the detection time 
and model parameters were reduced by 9 ms and 46.63% respectively. Compared with the original YOLOVSs network, the 
mAP and recall rate were improved by 4.2% and 2.7%, respectively; the number of parameters, model size and floating point 
operations were reduced by 46.6%, 44.4% and 47.5% respectively, and the average detection time was shortened by 9 ms. With 
Ghost convolution and BIFPN adding model, the detection accuracy has been improved to a certain extent, and the model has 
been greatly lightweight, effectively improving the detect efficiency. From the thermodynamic diagram results, it can be seen 
that BIFPN structure effectively enhances the representation ability of features, making the model more effective in focusing on 
the corresponding features of the target. The results showed that the algorithm can meet the requirements of accurate identifica- 
tion and classification of pear buds and flowers, and provide technical support for the follow-up pear garden to achieve intelli- 
gent flower thinning. 


Key words: pear flower; intelligent recognition; YOLOvS5s; BiFPN; lightweight model 
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